SpeechBrain 1 是一个基于 PyTorch 的开源对话式 AI 工具包,特别专注于语音处理任务,例如语音识别、语音增强、说话人识别、文本转语音等。它通过发布预训练模型以及训练它们所需的完整代码和算法“配方”,提高了透明度和可复制性。本文介绍了 SpeechBrain 1.0,这是该工具包发展的一个重要里程碑,现在它有超过 200 种语音、音频和语言处理任务配方,以及 Hugging Face 上提供的 100 多个模型。SpeechBrain 1.0 引入了新技术来支持多种学习模式、大型语言模型 (LLM) 集成和高级解码策略,以及新颖的模型、任务和模式。它还包括一个新的基准存储库,为研究人员提供了一个统一的平台来评估跨不同任务的模型。关键词:对话式 AI、开源、语音处理、深度学习。
主要关键词